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摘要 : 


【 目的】 在 基于 张 量 分 解 的 个 性 化 推荐 中 , 解决 因 UGC 标签 元 余 、 热 门 标签 和 资源 影响 用 户 个 性 化 兴趣 


所 导致 的 推荐 准确 性 降低 问题 。[ 方法 】 提 出 一 种 改进 的 基于 张 量 分 解 模型 的 个 性 化 推荐 算法 ， 引 入 标签 综合 共 


现 结合 谱 聚 类 的 方法 , 借鉴 TF-IDF 中 IDF 的 思想 提出 


种 基于 共 现 标签 和 资源 的 热门 惩罚 机 制 ， 对 基于 < 用 户 ， 


标签 复 ， 资源 > 三 元 关系 的 初始 张 量 进行 重新 定义 。【 结果 ] 基 于 Last.fm 数据 集 的 仿真 实验 结果 表明 ， 从 准确 率 、 


召回 率 和 Fl1 值 各 项 指标 上 ， 本文 提出 的 算法 均 有 良好 表现 ， 


综合 共 现 谱 聚 类 的 引入 使 得 推荐 算法 在 Fl 值 上 平均 


提升 $.91%， 基 于 IDF 改进 初始 张 量 后 的 推荐 算法 在 Fl 值 上 平均 提升 1.29%。[ 局 限 ] 未 针对 其 他 领域 的 数据 集 
进行 验证 ,如 微 博 、Delicious 等 。[ 结论 】 基 于 改进 的 张 量 分 解 模 型 的 个 性 化 推荐 算法 能 够 显著 提高 准确 性 ， 有 


利于 社交 网 络 环境 下 提供 更 令 用 户 满意 的 资源 。 
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1 引 言 


随 着 以 Fackbook 、 微 博 为 代表 的 社交 网 络 成 为 大 
众 维持 好 友 关 系 及 获取 信息 的 主要 途径 ， 基 于 社交 网 
络 的 资源 推荐 已 成 为 时 下 研究 的 热门 领域 , 大 量 的 特 
征 信息 可 以 帮助 推荐 系统 为 用 户 提供 更 加 个 性 化 的 推 
荐 。 标 签 作为 用 户 生 成 内 容 (User Generated Content， 
UGC) 的 一 种 表现 形式 , 是 基于 互联 网 的 社会 环境 中 、 
由 大 众 用 户 通过 群体 智慧 形成 的 一 种 有 效 的 信息 分 
类 、 组 织 和 管理 方式 趾 。 用 户 可 以 自发 地 对 网 络 资源 
进行 标注 , 通过 标签 来 描述 网 络 资源 ,， 因而 ,， UGC 标 
签 起 到 了 联系 用 户 和 资源 的 纽带 作用 ,是 反映 用 户 兴 
趣 和 资源 特征 的 重要 数据 源 。 

要 融合 标签 数据 , 个 性 化 推荐 算法 需要 充分 考虑 
并 完整 保留 < 用 户 , 标签 ,资源 > 三 元 关系 的 特性 ， 近 
年 来 张 量 分 解 模 型 因 其 对 高 维 数据 较 好 的 适应 性 为 基 


于 标签 的 推荐 系统 提供 了 重要 的 理论 支撑 中。 

张 量 分 解 模型 是 和 矩阵 分 解 模 型 的 高 阶 推广 ,其 将 
三 元 关系 映射 到 三 维和 矩阵 空间 ,通过 提取 主要 张 量 特 
征 值 ， 得 到 一 个 原始 张 量 的 压缩 近似 , 在 消除 噪声 数 
据 的 同时 能 够 有 效 凸 显 变量 之 间 的 隐 含 关系 ,特别 适 
用 于 解决 UGC 标签 存在 大 量 噪声 影响 推荐 准确 性 的 
问题 , 已 经 成 为 基于 标签 的 推荐 算法 中 的 主流 握 。 常 用 
的 张 量 分 解 算法 主要 有 CP 分 解 和 Tucker 分 解 忠 从 
1927 年 发 展 至 今 已 较为 成 熟 ， 目前 研究 主要 集中 在 如 
何 针对 不 同 领域 的 应 用 进行 相应 改进 。 在 基于 标签 的 
推荐 系统 方面 ，Symeonidis 等 设计 了 张 量 分 解 在 推荐 
中 的 通用 框架 ， 并 发 现 高 阶 奇 异 值 分 解 (HOSVD) 在 准 
确 性 上 要 远 优 于 FolkRank 算法 外 。 雇 志 芳 等 基于 
Tucker 分 解 和 CP 分 解 , 提出 新 用 户 标签 推荐 的 增 量 
模型 点， 大 大 降低 了 推荐 算法 的 时 间 花 费 。 虽 然 这 些 研 
究 成 功 应 用 张 量 分 解 突 出 了 标签 与 用 户 、 标 签 与 资源 
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之 间 的 关系 , 但 标签 的 语义 模糊 及 标签 元 余 问 题 阻 碍 
基于 张 量 分 解 的 个 性 化 推荐 在 准确 性 上 进一步 提升 。 
为 此 ， 有 人 研究 从 张 量 模型 的 构建 入 手 解 决 这 个 问题 ， 
如 Rendle 等 通过 对 张 量 内 的 缺失 值 进行 正 负 填充 , 并 
且 优 化 AUC 值 来 获得 最 优 的 分 解 结果 区 ;武臣 娟 等 比 
较 标 签 之 间 在 同一 用 户 同 一 资源 下 的 优 劣 性 , 扩展 了 
三 元 关系 中。 考虑 利用 只 类 算法 对 标签 数据 进行 清理 ， 
是 从 问题 的 核心 人 手 解决 标签 元 余 与 语义 模糊 的 有 效 
方案 。 

另外 在 推荐 问题 中 热门 资源 和 热门 标签 也 会 对 推荐 
结果 产生 影响 , 特别 是 基于 社交 网 络 的 推荐 算法 中 四 
由 于 热门 资源 往往 获得 较 大 的 权重 导致 推荐 结果 偏 问 
于 这 些 资源 而 忽略 了 大 量 的 长 尾 资源 ， 从 而 降低 了 推 
荐 准确 性 。 在 二 维 空间 中 , 一 般 都 通过 TF-IDF 中 的 
TF 或 IDF 思想 来 设置 惩罚 项 ， 以 减少 热门 标签 或 资源 
的 影响 。 词 频 - 逆 向 文档 频率 (Term Frequency-Inverse 
Document Frequency，TF-IDF) 是 用 来 衡量 词 能 和 否 表达 
文章 特征 的 方法 外 ,其 原理 是 : 如 果 某 个 词 或 短语 在 
一 篇 文档 中 出 现 的 频率 高 ,并 且 在 其 他 文档 中 很 少 出 
现 , 即 TF 高 且 IDF 高 时 , 则 认为 该 词 或 者 短语 具有 很 
好 的 类 别 区 分 能 力 。 对 热门 资源 的 惩罚 方面 , Fleder 等 
在 商品 推荐 的 研究 中 , 借鉴 TF 思想 计算 商品 间 相 似 
度 ， 发 现 惩罚 热门 资源 有 助 于 提高 销售 量 09。 王 成 等 
在 计算 用 户 相似 度 时 , 借鉴 IDF 的 思想 惩罚 了 热门 资 
源 ， 提 高 了 基于 用 户 的 协同 过 滤 算 法 的 准确 率 和 召回 
率 0。 对 热门 标签 的 惩罚 方面 , Cantador 等 发 现 热门 标 
签 无 法 为 区 别 用 户 偏 好 和 资源 特性 提供 额外 信息 , 反 
而 降低 了 推荐 准确 性 中 ,但 其 忽略 了 热门 资源 的 影 
响 。 项 亮 将 标签 作为 连接 用 户 和 资源 的 特征 ,同时 惩 
罚 了 热门 标签 和 资源 , 在 基于 标签 的 推荐 算法 准确 性 
上 取得 了 较 好 的 效果 号 。 

但 在 三 维 空间 中 当 标签 被 应 用 于 基于 张 量 分 解 的 
推荐 算法 中 时 , 情况 却 有 所 不 同 : Rafailidis 等 在 对 标 
签 聚 类 后 进行 初始 张 量 定义 时 将 三 元 关系 拆 分 成 两 个 
二 元 关系 , 分 别 设置 惩罚 项 (这样 虽然 有 助 于 凸显 
变化 后 的 三 元 关系 , 但 相 比较 凸 显 三 元 关系 为 推荐 准 
确 性 带 来 的 正面 影响 , 张 量 本 身 的 高 稀 琉 性 导致 的 负 

影响 可 能 更 加 严重 , 反而 造成 推荐 准确 性 的 下 降 。 

因此 , 本 文 提 出 一 种 融合 标签 综合 共 现 谱 聚 类 和 
改进 的 热门 惩罚 机 制 的 基于 张 量 分 解 模型 的 推荐 算 


法 。 首 先 , 在 标签 数据 预 处 理 中 引入 基于 标签 综合 共 
现 的 谱 聚 类 方法 ， 以 在 保留 三 元 关系 的 基础 上 解决 标 
签 语义 模糊 及 元 余 问 题 。 其 次 , 针对 热门 标签 和 资源 
影响 推荐 准确 性 的 问题 , 在 完整 保留 < 用 户 , 标签 簇 ， 
资源 > 三 元 关系 基础 上 , 在 初始 张 量 重新 定义 中 引入 
一 种 改进 的 惩罚 项 ,从 而 进一步 提升 基于 张 量 分 解 的 
个 性 化 推荐 算法 准确 性 。 


2 基于 综合 共 现 谱 聚 类 的 标签 数据 预 处 理 


源 于 大 众 分 类 法 (Folksonomy) 的 UGC 标签 存 在 语 
义 模糊 、 同 义 词 及 多 义 词 问题 , 会 大 大 降低 推荐 算法 
的 准确 性 m1。 在 张 量 分 解 前 ， 有 必要 对 标签 数据 进行 
聚 类 ， 以 减少 标签 元 余 及 语义 模糊 带 来 的 影响 , 在 消 
除 噪音 数据 的 同时 凸显 语义 关系 ,有 利于 提升 推荐 准 
确 性 。 

标签 聚 类 即将 标签 数据 分 成 多 个 复 , 根据 标签 之 
间 的 相似 度 使 得 簇 内 的 标签 尽 可 能 相似 , 与 其 他 簇 的 
标签 尽 可 能 相 异 ,这样 一 些 不 常 使 用 的 标签 会 被 一 个 
标签 群体 所 替代 ,而 语义 相似 的 标签 也 会 被 归 到 一 个 
靠 中 ,从 而 达到 凸显 用 户 偏 好 及 资源 主题 进而 提高 推 
荐 准确 性 的 目的 。 

聚 类 算法 通常 用 于 解决 稀 玖 问题 , 通过 选择 一 个 
较 小 的 聚 类 数 来 达到 目的 。 但 针对 标签 数据 的 特点 ， 
聚 类 算法 能 和 否 正确 地 识别 出 这 些 语义 模糊 及 宛 余 的 标 
签 ， 对 于 聚 类 结果 合理 性 影响 较 大 。 

Leginus 等 对 比 了 几 种 不 同 的 聚 类 方法 在 张 量 模型 
下 的 准确 性 ,发 现 谱 聚 类 算法 要 优 于 其 他 聚 类 算法 "9。 
由 于 其 高 效 、 易 于 发 现 不 规则 聚 类 的 优点 , 谱 聚 类 算 
法 近年 来 越 来 越 多 地 被 应 用 在 基于 标签 聚 类 的 个 性 化 
推荐 中 。 对 于 谱 聚 类 算法 来 说 , 标签 相似 度 矩 阵 是 其 
重要 输入 之 一 , 如何 定 义 标 签 之 间 相 似 度 使 其 尽 可 能 
完整 地 涵盖 标签 与 用 户 及 资源 之 间 的 关系 将 对 最 终 的 
标签 聚 类 效果 产生 重要 影响 。 但 Leginus 等 在 初始 张 
量 的 定义 中 并 没有 考虑 用 户 标 注 偏 好 的 差异 以 及 不 同 
资源 间 标 注 的 差异 ， 因 而 影响 模型 的 准确 度 59 。 
Symeonidis 在 其 基础 上 考虑 了 用 户 与 标签 簇 ， 资源 与 
标签 徐 的 关系 , 利用 向 量 空间 模型 计算 标签 间 的 余弦 
相似 度 , 形成 相似 抢 阵 再 进行 谱 聚 类 0 。 

通常 标签 相似 度 计 算 有 两 种 方法 : 向 量 空间 和 标 
签 共 现 法 。 向 量 空间 模型 将 每 个 标签 定义 为 一 个 向 量 ， 
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其 中 的 元 素 一 般 代表 与 用 户 或 者 资源 与 该 标签 之 间 的 
某 种 关联 中 。 但 这 样 的 二 维 向 量 形 式 难以 表示 三 维 空 
间 的 关系 。 因 而 , Symeonidis 基于 向 量 空 间 的 标签 相似 
度 计算 方法 无 法 将 用 户 、 标 签 艇 及 资源 三 者 关系 结合 
起 来 看 待 , 造成 了 三 元 关系 的 分 离 , 理论 上 会 削弱 标 
签 在 连接 用 户 与 资源 语义 关系 中 的 重要 作用 。 此 外 ， 
在 标签 向 量 空间 模型 中 将 所 有 的 用 户 和 资源 同 质 化 的 
做 法 , 随 着 用 户 和 资源 量 的 快速 增长 , 向 量 维度 成 倍 
增加 , 会 造成 严重 的 稀 蚊 性 问题 从 而 影响 聚 类 效果 。 
而 基于 图 论 的 标签 共 现 法 有 利于 直接 表现 多 元 关 
系 。Li 等 提出 了 改进 的 标签 共 现 结合 谱 聚 类 的 方法 , 将 
标签 相似 度 分 为 个 体 共 现 相似 度 和 群体 共 现 相 似 度 ”, 
个 体 共 现 相似 度 刻画 了 两 个 标签 间 最 根本 的 联系 ,而 
群体 相似 度 增强 了 标签 间 的 语义 关系 ,可 看 作 是 对 个 
体 相 似 度 的 补充 。 其 核心 观点 与 李 瑞 敏 等 的 看 法 一 致 ， 
即 如 果 某 资源 和 某 用 户 之 间 拥 有 的 共同 标签 越 多 , 那 
么 该 用 户 与 该 资源 之 间 的 关联 程度 越 高 名 。 通 过 综合 
共 现 相似 度 将 个 体 和 群体 共 现 相似 度 相 结合 ， 可 以 更 
好 地 表达 标签 之 间 的 相似 关系 ,其 特点 是 既 不 用 将 三 
元 关系 分 割 成 二 元 组 的 形式 ,又 不 用 将 用 户 资 源 同 质 
化 ,能够 在 完整 地 保留 用 户 、 标 签 及 资源 三 者 间 语 义 
关系 的 基础 上 将 用 户 和 资源 加 以 区 分 ,从 而 帮助 聚 类 
算法 更 好 地 识别 出 语义 模糊 及 宛 余 的 标签 。 


式 , 改变 了 维度 定义 ,因此 需要 对 初始 张 量 进行 适应 
性 改变 , 以 体现 三 者 之 间 的 相关 关系 ,同时 引入 热门 
惩罚 机 制 以 进一步 削弱 热门 标签 和 热门 资源 对 推荐 结 
果 的 影响 。 

在 大 众 分 类 法 中 定义 一 个 四 元 组 F=(U,T,R,Q) 。 
其 中 U= 0 代表 1 个 用 户 ID 的 集合 ， 


T=f,b,…tw} 代表 m 个 标签 ID 的 集合 ， 
R={,p…,W} 代表 n 个 资源 ID 的 集合 ， 


Q= {0(uistj,7)|ueU,t; eT,n eR} 代 表 w 用 标注 
rs 的 可 能 性 集合 ,如 果 有 标注 记录 则 w(t),n)=1， 
否则 为 0。 上述 四 元 组 可 以 转换 为 张 量 形式 : 定义 张 量 
Be Re ， 其 中 | |d |5 分 别 表示 数据 集中 用 户 、 
标签 复 和 资源 的 数量 , 张 量 中 的 元 素 即 @(w,C;,n)， 
通过 张 量 分 解 算法 对 初始 张 量 降 维 ， 去除 噪音 特征 值 ， 
获得 近似 张 量 Be Re 。 其 中 元 素 为 @'(w,Cj,n) 
经 过 迭代 收敛 后 的 值 。 
通常 ， 张 量 内 元 素 表示 的 是 用 户 、 标 签 和 资源 三 
者 的 关联 程度 ， 当 标签 聚 类 成 标签 徐 ， 基 于 < 用 户 , 标 
签 复 ， 资源 > 关系 的 初始 张 量 内 元 素 可 随 之 改变 为 : 
PsCpt)= > oluistj,n) (1) 


tieC;) 


公式 (1) 的 含义 是 将 用 户 wu; 对 资源 六 用 GC; 簇 内 的 


在 此 基础 上 本 文 引 入 基于 综合 共 现 谱 聚 类 方法 用 
于 张 量 分 解 前 对 标签 数据 进行 预 处 理 。 通 过 基于 综合 
共 现 的 谱 聚 类 解决 标签 所 固有 的 语义 模糊 及 宛 余 问 
题 ， 提 高 分 解 质量 以 达到 提升 推荐 准确 性 的 目标 。 在 
聚 类 方法 的 选择 上 ,以 K-means 为 代表 的 划分 聚 类 法 
根据 到 篮 中 心 的 距离 进行 聚 类 ， 对 于 某 些 离 篮 中 心 较 
远 的 点 如 果 加 以 修正 会 在 复杂 的 标签 网 络 中 造成 巨大 
的 误差 。 相 比 之 下 , 本 文 标签 聚 类 采用 基于 图 论 的 谱 
聚 类 算法 ， 即 以 最 小 化 图 权重 为 目标 对 图 进行 切割 而 
形成 标签 簇 , 不 存在 簇 中 心 ， 因而 有 利于 将 零散 的 标 
签 聚合 ， 同 一 篮 内 标签 间 的 相似 度 都 较 高 且 不 受 距 
簇 中心 远 近 的 影响 , 较 K-means 算 法 更 利于 发 现 不 规 
则 的 簇 , 从 而 尽 可 能 降低 由 于 聚 类 造成 的 语义 损失 。 


3 ”初始 张 量 改进 


由 于 张 量 分 解 之 前 进行 了 标签 聚 类 , 将 < 用 户 , 标 
签 ， 资源 > 三 元 关系 转换 成 < 用 户 , 标签 秘 , 资源 > 的 形 
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标签 进行 标注 的 次 数 求 和 , 作为 用 户 wu 对 资源 未 在 GG 
复 下 的 权重 。 

根据 公式 (1), 若 许多 用 户 都 使 用 Ci 簇 中 的 标签 
标注 了 资源 ri, 即 > 》 w(tj,n) 较 大 , 那么 系统 
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向 用 户 推荐 时 ,势必 会 偏向 Cl 簇 下 的 资源 r,， 即 使 用 
户 选择 过 其 他 标签 复 , 算法 也 无 法 较为 客观 地 反映 用 
户 个 性 化 的 兴趣 , 很 难 发 现 其 他 的 资源 特征 。 
针对 上 述 问 题 , 项 亮 在 基于 标签 的 推荐 算法 中 ， 
提出 将 IDF 与 对 数 函 数 结合 来 分 别 惩罚 资源 和 标签 的 


方法 中 ,以 热门 资源 为 例 ， 其 惩罚 项 为 : 
P(x) = log(l +n(rx)) (2) 


其 中 , n(n ) 表示 资源 产 在 不 同 用 户 中 出 现 的 次 数 ， 
如 果 n(n) 高 说 明 许 多 用 户 都 有 对 该 资源 的 标注 记录 ， 
以 此 来 说 明 资 源 的 普遍 性 ， 从 而 达到 识别 热门 资源 的 
目的 。 加 1 后 取 对 数 可 以 避免 分 母 为 0 的 情况 。 男 外 ， 
由 于 对 数 函 数 相 较 于 线性 函数 增长 较 慢 ,由 此 也 避免 


了 分 母 过 大 , 使 得 整个 公式 不 易 趋 近 于 0, 这 也 进 一 
步 避免 了 信息 缺失 ， 从 而 较 好 地 解决 了 热门 惩罚 的 问 
题 。 而 本 文 将 这 一 方法 引入 到 三 维 空间 初始 张 量 的 定 
义 中 。 

但 是 ，Gemmell 等 在 研究 中 观察 到 最 热门 的 标签 
往往 含义 上 较为 模糊 5， 导 致 这 些 标签 可 能 只 在 某 些 
含义 比较 热门 ,如果 单 独 惩罚 标签 则 可 能 会 对 热门 标 
签 在 非 热门 含义 上 造成 错误 的 惩罚 。 因 此 本 文 放弃 分 
别 对 资源 和 标签 进行 惩罚 的 做 法 ,考虑 惩罚 共 现 的 热 
门 资源 和 热门 标签 , 使 标签 与 资源 形成 对 应 关系 以 此 
确定 标签 在 该 资源 中 的 实际 含义 ,避免 了 由 于 标签 的 
模糊 性 导致 的 错误 惩罚 。 

由 此 , 引入 基于 共 现 标签 和 资源 的 热门 惩罚 机 制 
的 初始 张 量 定 义 如 下 : 

@ (ui,t;, ny ) 
oom) Be 

其 中 ， Pltj,1) =10og(l tn ), 全 表示 标签 5 和 
资源 产 同时 被 不 同 用 户 使 用 的 次 数 。 可 知 ， 如 果 某 个 
标签 总 被 不 同 的 用 户 来 标注 某 个 资源 , 则 说 明 该 < 标 
签 ， 资源 > 较为 热门 , 会 受到 一 定 的 惩罚 。 而 n ,实际 
上 是 标签 和 资源 被 使 用 的 交集 次 数 ， 这 样 既 可 以 发 现 
并 惩罚 真正 热门 的 标签 及 资源 ， 又 避免 了 分 开 惩罚 标 
签 和 资源 造成 的 过 度 惩罚 。 


4 基于 改进 张 量 分 解 模 型 的 个 性 化 推荐 算法 


在 推荐 环节 ,为 了 能 够 尽 可 能 地 利用 标签 复发 
据 用 户 与 资源 之 间 的 潜在 关系 , 需要 进行 张 量 分 解 。 
本 文 运用 HOSVD-HOOI 算法 对 初始 张 量 进行 分 解 ， 
选择 保留 70% 的 原始 信息 上 先 通过 高 维 奇异 值 分 解 
算法 HOSVD 去 除 无 用 特征 值 减少 张 量 中 的 噪声 数据 
以 获得 一 个 较 好 的 张 量 初始 解 ， 再 运用 高 维 正 交 迭代 
HOOTI 算法 号 对 初始 解 进行 迭代 获得 最 优 近似 张 量 ， 
其 中 包含 三 元 组 之 间 更 为 准确 的 语义 关系 ,可 以 帮助 
系统 发 现 用 户 的 潜在 兴趣 ， 从 而 获得 更 好 的 推荐 。 有 
研究 表明 相 较 于 其 他 张 量 分 解 算法 , 这 种 组 合算 法 能 
够 获得 更 精确 的 近似 张 量 中 。 

整个 推荐 过 程 从 现实 使 用 场景 的 角度 出 发 ， 当 用 


(3) 


GD http://grouplens.org/datasets/hetrec-2011.. 


户 u 点 选 蘑 个 标签 后 ,系统 会 查询 6 所属 的 标签 乱 
CG, 再 找到 该 用 户 张 量 中 目标 标签 秘 C 下 @'(u,,C,,n) 
最 高 的 N 个 资源 , 推荐 给 用 户 ， 从 而 完成 推荐 。 


5 仿真 实验 


5.1 数据 集 的 选择 

本 文选 用 的 Last.fm 数据 集 *? 自 2011 年 第 5 届 推 荐 
系统 国际 会 议 发 布 以 来 被 广泛 应 用 于 相关 研究 ,其 中 
包括 2005 年 -2011 年 间 1 892 名 用 户 对 17 632 位 歌手 
的 标注 和 收听 的 记录 , 产生 标签 11 946 个 , 标注 行为 
186 479 次 。 为 了 提高 运行 效率 , 对 原始 数据 集 进 行 得 
选 。 首先 为 避免 冷 启动 问题 , 选 出 标注 次 数 大 于 70 的 
用 户 和 歌手 ; 其 次 ,为 避免 机 器 人 恶意 评分 影响 数据 
集 质量 ， 筛 选 标注 次 数 小 于 3 000 次 的 用 户 ; 最 后 为 避 
免 标 签 数据 过 高 的 稀 玻 性 对 聚 类 效果 的 影响 ， 筛 选 出 
使 用 次 数 大 于 20 次 的 标签 。 最 终 得 到 的 核心 子 集 包 括 
444 位 用 户 、275 个 标签 及 372 位 歌手 , 共 37 749 条 有 
效 记录 ， 占 总 标注 次 数 的 20.24%。 从 中 随机 选择 80% 
的 数据 作为 训练 集 ， 剩 余 的 20% 作 为 测试 集 。 

在 训练 集中 的 所 有 用 户 都 会 被 随机 分 配 一 个 自己 
曾经 使 用 过 的 标签 , 通过 算法 得 出 每 位 用 户 的 一 个 
TopN 列表 , 通过 与 测试 集中 对 应 用 户 标注 的 资源 进 
行 比较 计算 推荐 算法 相关 的 性 能 指标 。 

5.2 ”性 能 评价 指标 的 选择 

推荐 准确 性 是 评价 推荐 算法 性 能 的 重要 指标 ， 目 
前 较为 主流 的 TopN 推荐 结果 准确 性 评价 的 指标 包括 : 
准确 率 (Precision)、 召 回 率 (Recall) 及 F1 指标 , 其 中 前 
两 者 相互 影响 ， 因 此 本 文选 择 使 用 准确 率 -召回 率 曲 
线 定性 地 反映 算法 准确 性 的 变化 趋势 ， 同时 选择 作为 
两 者 的 调和 平均 数 的 Fl 指标, 以 定量 地 反映 算法 之 间 
的 差距 中 1。 

仿真 实验 重复 10 次 , 对 每 个 指标 求 其 10 次 的 均 
值 作为 实验 结果 。 

5.3 ”性 能 对 比 

仿真 实验 模拟 用 户 通 过 选择 一 个 过 去 使 用 过 的 标 
签 得 到 一 个 TopN 列表 的 场景 ,对比 从 Top10 到 Top50 
每 增加 5 个 推荐 资源 时 不 同 算法 的 性 能 指标 。 通 过 模 
度 (Modularity Metric) 记 确定 最 佳 聚 类 个 数 为 5。 
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为 了 检验 本 文 提 出 的 改进 的 基于 张 量 分 解 模型 的 
推荐 算法 (CoSCIuIDF) 的 性 能 , 仿真 实验 将 选择 以 下 
三 个 对 比 算法 : 

(1) 基于 标签 -用 户 资源 矩阵 的 K-means 聚 类 0 
结合 IDF 初始 张 量 改进 的 算法 方法 (KmeansIDF), 以 
检验 本 文 引 入 标签 共 现 谱 聚 类 对 于 基于 张 量 分 解 模 型 
的 推荐 算法 准确 性 的 提升 作用 。 聚 类 个 数 都 设 为 5， 以 
确保 一 致 。 

(2) 综合 共 现 谱 聚 类 结合 传统 张 量 分 解 模型 未 对 
初始 张 量 进行 任何 改进 的 算法 (CoSClu), 以 检验 本 文 
在 初始 张 量 上 的 改进 对 于 推荐 性 能 的 影响 。 

(3) 仅 基 于 传统 张 量 分 解 模型 不 进行 任何 改进 的 
推荐 算法 (TD), 以 检验 本 文 CoSCIuIDF 算法 在 张 量 分 
解 前 引入 综合 共 现 谱 聚 类 进行 数据 预 处 理 的 做 法 以 及 
基于 改进 的 热门 惩罚 机 制 的 初始 张 量 定义 对 推荐 准确 
性 的 影响 。 

5.4 ”准确 性 指标 对 比分 析 
图 1 显示 了 准确 率 - 召 回 率 曲线 的 仿真 结果 ,每 条 
曲线 代表 一 种 算法 在 不 同 N 上 的 准确 率 和 召回 率 变 
化 。 当 N 较 小 时 ， 准 确 率 较 高 而 召回 率 较 低 ; 随 着 N 
的 变 大 ,准确 率 下 降 ,召回 率 上 升 。 曲 线 的 形态 越 靠 右 
上 角 , 说 明 推 荐 效果 越 好 。 
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图 1 4 种 算法 在 准确 率 - 召 回 率 曲线 上 的 对 比 


(1) 本 文 提出 的 算法 在 推荐 长 度 为 10-50 时 推荐 
效果 普遍 好 于 男 三 种 算法 , 与 次 好 的 CoSClu 相 比 平 
均 准确 率 相对 提升 幅度 (下 同 ) 达 2.69%, 平均 召回 率 
提升 达 2.71%, 说 明 运 用 综合 共 现 谱 聚 类 并 结合 IDF 
和 基于 共 现 标签 的 热门 标签 与 资源 惩罚 机 制 改进 初始 
张 量 的 做 法 可 以 提升 推荐 准确 性 。 

(2) CoSCIuIDF 相 较 KmeansIDF 的 提升 比 相 较 
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CoSClu 的 提升 更 为 显著 , 平均 准确 率 提升 5.00%, 平 
均 召 回 率 提升 达 5$.08%。 说 明 合理 的 标签 聚 类 比 惩罚 
热门 标签 和 资源 更 有 利于 推荐 准确 性 的 提升 。 

(3) KmeansIDF 相 比 CoSClu 有 略微 的 劣势 , 平均 
准确 率 相差 2.21%, 平均 召回 率 相差 2.26%， 这 也 进 一 
步 印 证 了 对 结果 (2) 的 分 析 ， 即 综合 共 现 谱 聚 类 对 于 推 
荐 准确 性 的 提升 比 惩罚 热门 标签 和 资源 更 为 明显 。 

图 2 为 4 种 算法 在 Fl 指标 上 的 对 比 。 
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图 2 4 种 算法 在 Fl 指标 上 的 对 比 


(1) 本 文 提出 的 CoSCIuIDEF 与 KmeansIDF 相 比 ， 
在 Fl 指标 上 平均 提升 达 5.04%, 最 大 提升 达 5.91% 
(N=15), 说 明 综合 共 现 谱 聚 类 相 比 传统 的 K-means 方 
法 更 有 利于 提升 推荐 的 准确 性 。 

(2) CoSCIuIDF 相 比 CoSClu, 在 Fl 指标 上 平均 提 
升 1.29%, 最 大 提升 1.90%(N=35), 说 明 引 入 IDF 思想 
定义 初始 张 量 并 基于 共 现 标签 和 资源 的 热门 惩罚 机 制 
的 改进 ， 有 效 消除 了 热门 标签 和 资源 对 降低 算法 准确 
性 的 影响 。 

通过 图 1 与 图 2 对 比 发 现 : 相 较 TD 算法, CoSClu、 
KmeansIDF 和 CoSCIuIDF, 无 论 是 准确 率 -召回 率 曲 线 
还 是 Fl 指标 上 性 能 都 有 大 幅 提升 .说 明 稀 玻 性 对 于 推 
荐 准确 性 的 影响 最 为 明显 ， 聚 类 算法 通过 设 定 一 个 较 
小 的 聚 类 数 能 有 效 解决 稀 踊 问题 ; 但 由 于 维度 相同 ， 当 
聚 类 数 一 样 时 , 不 同 聚 类 算法 对 于 稀 玻 性 的 解决 效果 
也 几乎 相同 , 但 在 更 好 地 识别 标签 元 余 及 语义 模糊 以 
提升 推荐 准确 性 方面 ,综合 共 现 谱 聚 类 相对 更 有 优势 。 

另外 在 实际 应 用 中 , 尤其 是 在 用 户 已 经 标注 了 一 
些 资 源 的 情况 下 ,很 少 会 只 给 用 户 推荐 10 个 或 者 更 低 
的 资源 ， 而 是 将 大 于 某 个 阔 值 的 所 有 资源 按照 权重 从 
大 到 小 排序 , 全 部 推荐 给 用 户 。 因 此 可 以 认为 较 大 的 
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推荐 长 度 更 具有 现实 意义 。 由 图 2 中 的 仿真 结果 对 比 
发 现 : 在 N=20 时 ，CoSCIuIDF 算法 在 Fl1 上 能 够 获得 
最 大 值 ， 具有 实际 意义 。 因 此 最 理想 的 推荐 长 度 建议 
为 N=20。 

为 了 避免 仿真 结果 受 标 签 筛 选 的 影响 , 本 文 特 在 
其 他 筛选 条 件 不 变 情况 下 对 比 标签 出 现 次 数 大 于 8 次 
所 得 到 的 核心 子 集 下 (简称 为 Tag8) 的 仿真 结果 。 不 同 
数据 集 下 各 个 算法 在 三 个 准确 性 指标 上 的 均值 表现 具 
体 数 据 如 表 1 所 示 。 

表 1 推荐 平均 准确 性 指标 对 比 


数据 集 准确 性 指标 CoSCIuIDF CoSClu KmeansIDF TD 


Precision 22.69% 22.56% 22.38% 11.39% 
Tag8 Recall 43.61% 43.36% 42.94% 21.32% 
Fl 28.21% 28.05% 27.80% 13.99% 
Precision 23.67% 23.05% 22.54% 12.20% 
Tag20 Recall 45.80% 44.59% 43.59% 23.05% 
Fl 29.48% 28.71% 28.07% 15.03% 


可 以 看 到 稀 琉 性 对 所 有 算法 的 准确 性 均 有 影响 ， 
但 是 ,即便 在 高 稀疏 性 数据 情况 下 ,本 文 提出 的 
CoSCIuIDF 相对 于 其 他 算法 在 各 项 性 能 指标 上 都 表现 
最 佳 ， 只 是 相对 于 Tag20 数据 集 较 低 稀 玻 性 情况 下 ， 
生 能 优势 略 有 削弱 。 可 见 ， 高 稀 玻 性 标签 数据 中 一 些 
杂乱 标签 会 影响 综合 共 现 谱 聚 类 对 合理 标签 禾 的 发 现 
能 力 , 因此 建议 在 实际 应 用 中 尽 可 能 先 对 标签 数据 进 
行 清理 ， 以 减 小 稀疏 性 对 算法 的 影响 。 
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6 结 语 


为 优化 基于 UGC 标签 的 个 性 化 推荐 结果 的 准确 
性 , 本 文 在 张 量 分 解 模型 中 引入 标签 综合 共 现 结合 谱 
聚 类 的 方法 通过 保留 < 用 户 , 标签 ,资源 > 三 元 关系 的 
语义 完整 性 来 有 效 识别 相似 的 标签 , 缓解 标签 宛 余 及 
语义 模糊 对 推荐 准确 性 的 影响 。 进 而 , 为 了 解决 三 维 
空间 上 热门 标签 和 资源 对 推荐 准确 性 的 影响 ,在 
TF-IDF 中 的 IDF 思想 上 提出 一 种 基于 共 现 的 标签 和 
资源 的 热门 惩罚 机 制 并 在 此 基础 上 重新 定义 了 初始 张 
量 ， 既 保留 了 三 元 语义 关系 又 能 凸显 用 户 的 个 性 化 兴 
趣 。 仿 真实 验 表 明 这 种 方法 能 够 充分 利用 标签 数据 信 
息 ， 有 效 提高 推荐 算法 的 性 能 。 

随 着 在 线 社交 网 站 的 普及 ,基于 标签 和 信任 关系 
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的 个 性 化 推荐 将 会 受到 更 加 广泛 的 关注 。 未 来 工作 将 
集中 在 进一步 充分 利用 标签 徐 和 社交 网 络 信任 关系 信 
息 的 基于 张 量 分 解 模型 推荐 算法 性 能 优化 研究 。 
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Personalized Recommendation Algorithm Based on Modified Tensor 
Decomposition Model 


Chen Meimei Xue Kangjie 
(Glorious Sun School of Business & Management, Donghua University, Shanghai 200051, China) 


Abstract: [Objective] This paper tries to improve the prediction accuracy of personalized recommendation algorithm 
based on the tensor decomposition model. [Methods] First, we proposed a new tensor model using spectral clustering 
technique based on combined tag co-occurrence. Second, we established a penalty scheme on popular tag and resource 
co-occurrence with the help of IDF in TF-IDF. Finally,we re-defined the initial tensor on the triplets of user, tag cluster, 
and resource. [Results] We examined the proposed model with dataset from Last.fm and found its precision, recall and 
Fl measure outperformed other algorithms. The Fl measures were increased by 5.91% and 1.29% thanks to the two 
proposed modifictions based on clustering and IDF. [Limitations] The proposed algorithm should be further evaluated 
with datasets from Weibo, Delicious, and other resources. [Conclusions] The new algorithm based on advanced tensor 
decomposition model could significantly improve the accuracy of resources recommendation to satisfy social network 
system users’ information needs. 


Keywords: Personalized Recommendation UGC Tag Tag Co-occurrence Spectral Clustering Tensor Decomposition 


VitalSource 和 加 州 州立 大 学 合作 改善 开放 教育 资源 的 利用 情况 


开放 教育 资源 (Open Educational Resources, OER) 在 过 去 10 年 中 备 受 欢迎 ,其 为 学 生 提 供 了 经 济 实惠 还 可 以 轻松 定制 以 
满足 导师 个 性 需求 的 课程 材料 。 然 而 ,这些 学 习 材料 通常 缺乏 关键 功能 , 例如 可 靠 的 分 发 、 简 单 的 集成 和 详细 的 分 析 。 

为 弥合 开放 教育 资源 和 传统 学 习 材料 之 间 的 差距 ， 加州 州 立 大 学 (CSU) 和 集团 和 VitalSource 技术 公司 于 近日 宣布 合作 , 旨 
在 改善 开放 教育 资源 的 采用 和 使 用 情况 。VitalSource 技术 公司 是 mgram 内 容 集团 旗下 数字 教育 内 容 交 付 方面 的 全 球 领导 者 。 

VitalSource 副 总 裁 Mike Hale 说 :“ 这 一 合作 与 我 们 的 使 命 是 一 致 的 , 目的 是 帮助 创建 和 交付 价格 合理 、 高 质量 的 课程 资 
料 。 教授 和 指导 老师 正在 投入 大 量 的 时 间 和 精力 来 创建 开放 教育 资源 。 这 一 合作 能 促使 优质 的 开放 教育 资源 内 容 能 够 具有 和 
VitalSource Bookshelf 平台 同等 水 平 的 可 发 现 性 、 易 用 性 ,市 场 覆 盖 度 ， 以 及 平台 可 靠 性 。” 

加 州 州立 大 学 管理 的 MERLOT 、SkillsCommons 和 COOL4Ed 项 目 中 现 有 许多 学 术 和 职业 发 展开 放 教 育 资源 有 兴趣 采 
用 这 些 资源 的 教育 者 和 机 构 , 将 能 够 通过 VitalSource Bookshelf 平 台 向 教师 和 学 生 提 供 这 些 内 容 。 和 希望 创建 或 修改 开放 教育 
资源 内 容 的 教育 者 和 机 构 也 可 以 继续 使 用 VitalSource Content Studio 平台 和 VitalSource 专 有 的 数字 创作 工具 。 该 工具 为 内 容 
创作 者 提供 了 直观 的 操作 ， 能 创建 基于 标准 的 响应 式 的 、 交 互 式 的 和 可 访问 的 内 容 。 在 VitalSource Content Studio 中 创建 的 
内 容 可 以 通过 Bookshelf 平 台 分 发 给 学 生 。 

“这 一 合作 将 使 得 个 人 和 机 构 能 够 方便 地 、 可 扩展 地 、 可 持续 地 使 用 开放 教育 资源 ”加州 州立 大 学 副 校长 Gerry Hanley 
说 “未 来 , 我 们 将 有 一 个 数字 化 的 市 场 ， 为 教育 工作 者 和 学 习 者 提供 最 便宜 的 教育 内 容 , 并 提供 方便 可 靠 的 分 发 服务 。” 


(编译 自 : http://press.vitalsource.com/oer-adoption-made-easy-through-vitalsource-and-california-state-university) 
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